智能论文笔记

A semantic web approach to uplift decentralized household energy data

Jiantao Wu , Fabrizio Orlandi , Tarek AlSkaif , Declan O'Sullivan , Soumyabrata Dev

分类：人工智能 | 机器学习

2022-08-18

在由家用电器，电动汽车和太阳能电池板等各种设备组成的分散家庭能源系统中，最终用户可以更深入地研究该系统的细节，并进一步实现能源可持续性，如果向它们提供了有关电能消耗的数据和设备粒度的生产。但是，该领域中的许多数据库都是从其他域中孤立的，包括仅与能源有关的信息。这可能会导致每个设备能源使用的信息损失（\ textit {例如{例如}天气）。同时，许多这些数据集已在计算建模技术（例如机器学习模型）中广泛使用。尽管这种计算方法仅通过仅专注于数据集的局部视图来实现极高的准确性和性能，但不能保证模型可靠性，因为当考虑到信息遗漏时，此类模型非常容易受到数据输入波动的影响。本文通过在家庭能源系统的基础上检查语义Web方法来解决智能能源系统领域的数据隔离问题。我们提供了一种基于本体的方法，用于在系统中的设备级分辨率下管理分散数据。结果，与每个设备相关的数据的范围可以在整个网络中以可互操作的方式轻松扩展，并且只要根据W3C标准组织数据，就可以从网络中获得其他信息，例如天气。。

translated by 谷歌翻译

Frequency-centroid features for word recognition of non-native English speakers

Pierre Berjon , Rajib Sharma , Avishek Nag , Soumyabrata Dev

分类：自然语言处理

2022-06-14

这项工作的目的是研究互补的特征，这些特征可以帮助典型的MEL频率经系系数（MFCC），以封闭，有限的set set Word识别为不同母亲说话的英语说话者。与源自语音信号的光谱能量的MFCC不同，提议的频率饮食（FCS）封装了语音光谱不同带的光谱中心，由MEL FILLEC BANK定义。观察到这些功能与MFCC结合使用，可提供英语单词识别的相对性能提高，尤其是在各种嘈杂条件下。两阶段的卷积神经网络（CNN）用于模拟用阿拉伯语，法语和西班牙口音说出的英语单词的特征。

translated by 谷歌翻译

Analyzing the impact of feature selection on the accuracy of heart disease prediction

Muhammad Salman Pathan , Avishek Nag , Muhammad Mohisn Pathan , Soumyabrata Dev

分类：机器学习

2022-06-07

心脏病已成为对人类生活产生重大影响的最严重疾病之一。在过去的十年中，它已成为全球人民死亡的主要原因之一。为了防止患者进一步损害，准确地诊断为心脏病是一个重要因素。最近，我们看到了非侵入性医学程序的用法，例如医学领域的基于人工智能的技术。专门的机器学习采用了多种算法和技术，这些算法和技术被广泛使用，并且在较少的时间以诊断心脏病的准确诊断非常有用。但是，对心脏病的预测并不是一件容易的事。医疗数据集的规模不断增加，使从业者了解复杂的特征关系并做出疾病预测是一项复杂的任务。因此，这项研究的目的是从高度维数据集中确定最重要的风险因素，这有助于对心脏病的准确分类，并减少并发症。为了进行更广泛的分析，我们使用了具有各种医学特征的两个心脏病数据集。基准模型的分类结果证明，相关特征对分类精度产生了很大的影响。即使功能减少，与在全功能集中训练的模型相比，分类模型的性能随着训练时间的减少而显着提高。

translated by 谷歌翻译

Online Low Rank Matrix Completion

Prateek Jain , Soumyabrata Pal

分类：机器学习 | (统计)机器学习

2022-09-08

我们研究了\ textit {在线}低率矩阵完成的问题，并使用$ \ mathsf {m} $用户，$ \ mathsf {n} $项目和$ \ mathsf {t} $ rounds。在每回合中，我们建议每个用户一项。对于每个建议，我们都会从低级别的用户项目奖励矩阵中获得（嘈杂的）奖励。目的是设计一种以下遗憾的在线方法（以$ \ mathsf {t} $）。虽然该问题可以映射到标准的多臂强盗问题，其中每个项目都是\ textit {独立}手臂，但由于没有利用武器和用户之间的相关性，因此遗憾会导致遗憾。相比之下，由于低级别的歧管的非凸度，利用奖励矩阵的低排列结构是具有挑战性的。我们使用探索-Commit（etc）方法克服了这一挑战，该方法确保了$ O（\ Mathsf {polylog}（\ Mathsf {m}+\ \ \ \ \ Mathsf {n}）\ Mathsf {t}^{2/2/ 3}）$。 That is, roughly only $\mathsf{polylog} (\mathsf{M}+\mathsf{N})$ item recommendations are required per user to get non-trivial solution.我们进一步改善了排名$ 1 $设置的结果。在这里，我们提出了一种新颖的算法八进制（使用迭代用户群集的在线协作过滤），以确保$ O（\ Mathsf {polylog}（\ Mathsf {M}+\ Mathsf {N}）几乎最佳的遗憾。 ^{1/2}）$。我们的算法使用了一种新颖的技术，可以共同和迭代地消除项目，这使我们能够在$ \ Mathsf {t} $中获得几乎最小的最佳速率。

translated by 谷歌翻译

Explainable and High-Performance Hate and Offensive Speech Detection

Marzieh Babaeianjelodar , Gurram Poorna Prudhvi , Stephen Lorenz , Keyu Chen , Sumona Mondal , Soumyabrata Dey , Navin Kumar

分类：自然语言处理 | 机器学习

2022-06-26

信息通过社交媒体平台的传播可以创造可能对弱势社区的环境和社会中某些群体的沉默。为了减轻此类情况，已经开发了几种模型来检测仇恨和冒犯性言论。由于在社交媒体平台中检测仇恨和冒犯性演讲可能会错误地将个人排除在社交媒体平台之外，从而减少信任，因此有必要创建可解释和可解释的模型。因此，我们基于在Twitter数据上培训的XGBOOST算法建立了一个可解释且可解释的高性能模型。对于不平衡的Twitter数据，XGBoost在仇恨言语检测上的表现优于LSTM，Autogluon和ULMFIT模型，F1得分为0.75，而0.38和0.37分别为0.37和0.38。当我们将数据放到三个单独的类别的大约5000个推文中时，XGBoost的性能优于LSTM，Autogluon和Ulmfit；仇恨言语检测的F1分别为0.79和0.69、0.77和0.66。 XGBOOST在下采样版本中的进攻性语音检测中的F1得分分别为0.83和0.88、0.82和0.79，XGBOOST的表现也比LSTM，Autogluon和Ulmfit更好。我们在XGBoost模型的输出上使用Shapley添加说明（SHAP），以使其与Black-Box模型相比，与LSTM，Autogluon和Ulmfit相比，它可以解释和解释。

translated by 谷歌翻译

Community Recovery in the Geometric Block Model

Sainyam Galhotra , Arya Mazumdar , Soumyabrata Pal , Barna Saha

分类：机器学习

2022-06-22

为了捕获许多社区检测问题的固有几何特征，我们建议使用一个新的社区随机图模型，我们称之为\ emph {几何块模型}。几何模型建立在\ emph {随机几何图}（Gilbert，1961）上，这是空间网络的随机图的基本模型之一，就像在ERD \ H上建立的良好的随机块模型一样{o} s-r \'{en} yi随机图。它也是受到社区发现中最新的理论和实际进步启发的随机社区模型的自然扩展。为了分析几何模型，我们首先为\ emph {Random Annulus图}提供新的连接结果，这是随机几何图的概括。自引入以来，已经研究了几何图的连通性特性，并且由于相关的边缘形成而很难分析它们。然后，我们使用随机环形图的连接结果来提供必要的条件，以有效地为几何块模型恢复社区。我们表明，一种简单的三角计数算法来检测几何模型中的社区几乎是最佳的。为此，我们考虑了两个图密度方案。在图表的平均程度随着顶点的对数增长的状态中，我们表明我们的算法在理论上和实际上都表现出色。相比之下，三角计数算法对于对数学度方案中随机块模型远非最佳。我们还查看了图表的平均度与顶点$ n $的数量线性增长的状态，因此要存储一个需要$ \ theta（n^2）$内存的图表。我们表明，我们的算法需要在此制度中仅存储$ o（n \ log n）$边缘以恢复潜在社区。

translated by 谷歌翻译

Support Recovery in Mixture Models with Sparse Parameters

Arya Mazumdar , Soumyabrata Pal

分类：机器学习 | (统计)机器学习

2022-02-24

混合模型被广泛用于拟合复杂和多模式数据集。在本文中，我们研究了具有高维稀疏潜在参数矢量的混合物，并考虑了支持这些向量的恢复的问题。尽管对混合模型中的参数学习进行了充分研究，但稀疏性约束仍然相对尚未探索。参数向量的稀疏性是各种设置的自然约束，支持恢复是参数估计的主要步骤。我们为支持恢复提供有效的算法，该算法具有对数样品的复杂性依赖于潜在空间的维度。我们的算法非常笼统，即它们适用于1）许多不同规范分布的混合物，包括统一，泊松，拉普拉斯，高斯人等。2）在统一参数的不同假设下，线性回归和线性分类器与高斯协变量的混合物与高斯协变量的混合物。在大多数这些设置中，我们的结果是对问题的首先保证，而在其余部分中，我们的结果为现有作品提供了改进。

translated by 谷歌翻译

Robust Stability of Neural Network-controlled Nonlinear Systems with Parametric Variability

Soumyabrata Talukder , Ratnesh Kumar

分类：机器学习

2021-09-13

稳定性认证并确定安全稳定的初始集是确保动态系统的操作安全性，稳定性和鲁棒性的两个重要问题。随着机器学习工具的出现，需要针对反馈循环中具有机器学习组件的系统来解决这些问题。为了开发一种关于神经网络（NN）控制的非线性系统的稳定性和稳定性的一般理论，提出了基于Lyapunov的稳定性证书，并进一步用于设计用于NN Controller和NN控制器和最大LIPSCHITZ绑定的。也是给定的安全操作域内内部相应的最大诱因（ROA）。为了计算这种强大的稳定NN控制器，它也最大化了系统的长期实用程序，提出了稳定性保证训练（SGT）算法。提出的框架的有效性通过说明性示例得到了验证。

translated by 谷歌翻译

Support Recovery of Sparse Signals from a Mixture of Linear Measurements

Venkata Gandikota , Arya Mazumdar , Soumyabrata Pal

分类： (统计)机器学习 | 机器学习

2021-06-10

恢复来自简单测量的稀疏向量的支持是一个广泛研究的问题，考虑在压缩传感，1位压缩感测和更通用的单一索引模型下。我们考虑这个问题的概括：线性回归的混合物，以及线性分类器的混合物，其中目标是仅使用少量可能嘈杂的线性和1位测量来恢复多个稀疏载体的支持。关键挑战是，来自不同载体的测量是随机混合的。最近也接受了这两个问题。在线性分类器的混合物中，观察结果对应于查询的超平面侧随机未知向量，而在线性回归的混合物中，我们观察在查询的超平面上的随机未知向量的投影。从混合物中回收未知载体的主要步骤是首先识别所有单个组分载体的支持。在这项工作中，我们研究了足以在这两种模型中恢复混合物中所有组件向量的支持的测量数量。我们提供使用$ k，\ log n $和准多项式在$ \ ell $中使用多项式多项式的算法，以恢复在每个人的高概率中恢复所有$ \ ell $未知向量的支持组件是$ k $ -parse $ n $ -dimensional向量。

translated by 谷歌翻译

Fuzzy Clustering with Similarity Queries

Wasim Huleihel , Arya Mazumdar , Soumyabrata Pal

分类：机器学习 | (统计)机器学习

2021-06-04

模糊或柔软$ k $ -means目标是众所周知的$ k $ -means问题的流行泛化，将$ k $ -means扩展到不确定，模糊和否则难以群集的数据集的聚类能力。在本文中，我们提出了一个半监督的主动聚类框架，其中允许学习者与Oracle（域专家）进行交互，询问一组所选项目之间的相似性。我们研究了本框架中的聚类查询和计算复杂性。我们证明具有一些这样的相似性查询使得一个人能够将多项式时间近似算法获得到另外的辅助NP难题。特别是，我们提供了在此设置中的模糊聚类的算法，该算法询问$ O（\ mathsf {poly}（k）\ log n）$相似查询并使用多项式 - 时间复杂度运行，其中$ n $是项目的数量。模糊$ k $ -means目标是非渗透，$ k $ -means作为一个特殊情况，相当于一些其他通用非核解问题，如非负矩阵分解。普遍存在的LLOYD型算法（或交替的最小化算法）可以以局部最小粘在一起。我们的结果表明，通过制作一些相似性查询，问题变得更加易于解决。最后，我们通过现实世界数据集测试我们的算法，展示了其在现实世界应用中的有效性。

translated by 谷歌翻译